*Generel:

drop if missing(muac_cm)
*33 obs deleted, total = 11,998

drop if missing(age)
*6 obs deleted, total = 11,992

drop if missing(sex)
*9 obs deleted, total = 11,983

*age groups
drop if age>18
*107 obs deleted 

drop if age<6
*77 obs deleted

*outliers
drop if muac>31 & bmi<25
*2 obs deleted

drop if muac<24 & bmi>32
*15 obs deleted
*se forklaring længere nede.



*__________

*Descriptive characteristica:
*checking for normality
*sum and SD. 

hist age, norm
sum age
sum age, de
mean age


tabu sex
tabu school_location
tabu school_type

hist muac_cm, norm
sum muac_cm
sum muac_cm, de
mean muac_cm

hist weight_kg, norm
sum weight_kg
sum weight_kg, de
mean weight_kg

hist height_cm, norm
sum height_cm
sum height_cm, de
mean height_cm

hist bmi, norm
sum bmi
sum bmi, de
mean bmi
*Man kan argumentere for, at BMI er venstreforskudt i forhold til en normal fordeling. 

hist waist_cm, norm
sum waist_cm
sum waist_cm, de
mean waist_cm

*__________

*Undersøger forskellen af alder angivet "age" og "age_to_birth_year". Vi arbejder med afhængigt datasæt:

*Vi undersøger først om følgende antagelser før vi laver en parret t-test. 

drop if missing(age_to_birth_year)
*Da vi skal sammenligne angivet alder og fødselsår fra inkluderet. 

*Først antager vi følgende: 
*1. Sample size n er ikke afhængig af antallet af observationer. (kigger design igennem)
*2. Differencen kommer fra samme distribution. (de har alle samme gennemsnit og varians), (BA plottet)
*3. Distributionen er normal fordelt. (Q-Q plot) 

*1 Designet er et uafhængigt datasæt. Antallet af observationer er ikke afhængigt af resultatet. 

*2
graph twoway (lfit age age_to_birth_year) (scatter age age_to_birth_year) (function y=x+5, ra(age) clpat(dash)) 
*Det kan ses på scatter plottet er der en generel sammenhængen mellem den alder der angivet og fødselsår. Forskellen er nogenlunde konstant hvilket kan ses imellem forskellen på de to linjer.


gen ave=(age+age_to_birth_year)/2
gen dif=age-age_to_birth_year
scatter dif ave

*Bland Altmondplot. 
*The mean difference does not depend on the induvidual level (average)
*The variation of the difference does not depends on the individual level (average)

*Jeg var lidt i tvivl med 2. præmis - da der er en lidt større variation i midten. Men efter at have kigget i BAcatalog blev jeg enig med mig selv om at vores data lever op til denne præmis. Vi antager på den baggrund at der er en homogenitet i vores datasæt. 

*3 
graph twoway (lfit age age_to_birth_year) (scatter age age_to_birth_year)

histogram age, norm name(p1)
histogram age_to_birth_year, norm name(p2)
graph twoway (lfit age age_to_birth_year) (scatter age age_to_birth_year), name(p3)

graph combine p1 p2 p3

graph twoway (lfit muac age) (scatter muac age), name(a1)

graph twoway (lfit muac age_to_birth_year) (scatter muac age_to_birth_year), name(a2)

graph combine  a1 a2


*Punkterne følger linjen noglelunde, hvilket argumentere for antagelsen om normal fordeling. antagelsen om normal fordeling ser ud til at gøre sig gældende i disse forskellige visuelle grafer. 


graph box age age_to_birth_year
*Vi kan få en fornemmelse af fordelingen og dermed se at forskellen ikke er stor. 

pwcorr age age_to_birth_year, star(5)
*Person correlation viser også at der er en correlation effekt på 0,998. Dette betragtes som en stærk correlation mellem de forskellige punkter. 

*Paried t-test: 
ttest age == age_to_birth_year
*Testen viser at der er en signifikant forskel i gennemsnittet i af fødselsår og angivet alder. Denne forskel er dog med 95% sandsynlighed mellem 0,1 og 0,12 af et år, hvilket også er acceptabelt. 

. drop if dif>1
*(59 observations deleted)

. drop if dif<-1
*(13 observations deleted)

*Spørg Cecilie om nedenstående 2 muligheder:  

*1: De inkluderet med for stor usikkerhed i deres alder >1 års forskel mellem angivet fødselsår og alder slettes. Dermed opnår vi en Person correlation coefficient på 0.9927.


*2: Vi sletter ikke dem med stor usikkerhed, da vi ønsker at behandle hele datasættet ens - tager vi udgangspunkt i alder. Det skyldes at ca. 3000 ikke har angivet fødselsår og vi derfor ikke kan justere denne gruppes alder. Dette er acceptabel da vores 1. person correlation på 


_______________

*MUAC age z-score: 

*Checking for normality:

histogram muac_cm, norm by(sex)
histogram age, norm by(sex)

*The assumption of normality is satisfied in both dataset. 

*Visuel statistics:
graph box muac_cm, by(sex)


twoway qfitci muac_cm age if sex==1, stdf || scatter muac_cm age if sex==1
twoway qfitci muac_cm age if sex==2, stdf || scatter muac_cm age if sex==2

*girls
. regress muac_cm age if sex==1

      Source |       SS           df       MS      Number of obs   =     5,972
-------------+----------------------------------   F(1, 5970)      =   3591.19
       Model |  17929.6064         1  17929.6064   Prob > F        =    0.0000
    Residual |  29806.2259     5,970  4.99266766   R-squared       =    0.3756
-------------+----------------------------------   Adj R-squared   =    0.3755
       Total |  47735.8324     5,971  7.99461269   Root MSE        =    2.2344

------------------------------------------------------------------------------
     muac_cm |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         age |    .570159   .0095143    59.93   0.000     .5515076    .5888105
       _cons |   13.20824   .1233562   107.07   0.000     12.96642    13.45006
------------------------------------------------------------------------------

*boys
. regress muac_cm age if sex==2

      Source |       SS           df       MS      Number of obs   =     6,011
-------------+----------------------------------   F(1, 6009)      =   4155.04
       Model |  26314.2989         1  26314.2989   Prob > F        =    0.0000
    Residual |  38055.6179     6,009  6.33310333   R-squared       =    0.4088
-------------+----------------------------------   Adj R-squared   =    0.4087
       Total |  64369.9168     6,010  10.7104687   Root MSE        =    2.5166

------------------------------------------------------------------------------
     muac_cm |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         age |   .6735944   .0104499    64.46   0.000     .6531089    .6940799
       _cons |   12.10564   .1357747    89.16   0.000     11.83948    12.37181
------------------------------------------------------------------------------


*Check for normality within each age group before making the oneway analyse.
qnorm muac_cm if age==6
qnorm muac_cm if age==7
qnorm muac_cm if age==8
qnorm muac_cm if age==9
qnorm muac_cm if age==10
qnorm muac_cm if age==11
qnorm muac_cm if age==12
qnorm muac_cm if age==13
qnorm muac_cm if age==14
qnorm muac_cm if age==15
qnorm muac_cm if age==16
qnorm muac_cm if age==17
qnorm muac_cm if age==18


 oneway muac_cm age if sex==1, tab

            |         Summary of MUAC cm
        Age |        Mean   Std. Dev.       Freq.
------------+------------------------------------
          3 |      15.075   .29860782           4
          4 |       15.25   .35355339           2
          5 |   15.696429   1.1701479          28
          6 |   16.346269   1.6223837         134
          7 |   16.877778   1.7902507         234
          8 |   17.216645   1.7197154         313
          9 |   18.141061    2.043591         358
         10 |   18.594355   2.2037448         372
         11 |   19.620911   2.3954672         538
         12 |   20.323002   2.3206526         603
         13 |   20.914191   2.3004397         828
         14 |   21.666488   2.2257376         877
         15 |   21.996439   2.1794841         674
         16 |   22.270777   2.3234683         489
         17 |   22.167855   2.1162181         303
         18 |   22.022308   2.2305306         169
         19 |   22.325806   2.1427347          31
         20 |     22.6875   1.8696352           8
         21 |   23.666667   3.0138569           3
         22 |   23.533333    1.703917           3
         23 |          27           0           1
------------+------------------------------------
      Total |   20.394613   2.8274746       5,972

                        Analysis of Variance
    Source              SS         df      MS            F     Prob > F
------------------------------------------------------------------------
Between groups       19140.813     20   957.040648    199.17     0.0000
 Within groups      28595.0194   5951   4.80507803
------------------------------------------------------------------------
    Total           47735.8324   5971   7.99461269

Bartlett's test for equal variances:  chi2(19) = 115.3865  Prob>chi2 = 0.000

note: Bartlett's test performed on cells with positive variance:
      1 single-observation cells not used

. oneway muac_cm age if sex==2, tab

            |         Summary of MUAC cm
        Age |        Mean   Std. Dev.       Freq.
------------+------------------------------------
          3 |       14.98   .60991813           5
          4 |       15.18   .77588654           5
          5 |   15.981818   1.4145349          33
          6 |   16.370068    1.872198         147
          7 |   17.140991   2.2521352         222
          8 |   17.416613   2.0825539         313
          9 |   18.081462   2.3323349         383
         10 |   18.614791   2.2724563         407
         11 |    19.28159   2.7022221         497
         12 |   19.994441   2.6991412         617
         13 |   20.684172   2.5685459         743
         14 |   21.780257   2.6904762         856
         15 |   22.489182   2.4993709         721
         16 |   23.236748   2.5482922         532
         17 |   23.343963   2.4580807         323
         18 |   23.770548   2.4920886         146
         19 |   24.422222   2.2497125          36
         20 |   24.566667    2.936835           9
         21 |       24.62   2.2083929           5
         22 |        24.5   1.3540064           4
         23 |   24.183333   2.7498484           6
         24 |        21.5           0           1
------------+------------------------------------
      Total |   20.603848   3.2726852       6,011

                        Analysis of Variance
    Source              SS         df      MS            F     Prob > F
------------------------------------------------------------------------
Between groups      26846.6242     21   1278.41067    204.04     0.0000
 Within groups      37523.2926   5989   6.26536861
------------------------------------------------------------------------
    Total           64369.9168   6010   10.7104687

Bartlett's test for equal variances:  chi2(20) = 107.3166  Prob>chi2 = 0.000

*_______________________


*Compare BMI and MUAC: 

drop if missing(bmi)
(6 observations deleted)


*Først antager vi følgende: 
*1. Sample size n er ikke afhængig af antallet af observationer. (kigger design igennem)
*2. Differencen kommer fra samme distribution. (de har alle samme gennemsnit og varians), (BA plottet)
*3. Distributionen er normal fordelt. (Q-Q plot) 

*2: 
graph twoway (lfit muac_cm bmi) (scatter muac_cm bmi)

*Grundet nogle urealistiske værdier hvor muac<24 cm og & bmi>32 slettes disse. Da disse vurderes udfra grafen som urealistiske. 

drop if muac_cm<24 & bmi>32

graph twoway (lfit muac_cm bmi) (scatter muac_cm bmi)

*antagelse 2 er opfyldt. 

*3 
histogram muac_cm, norm name(p1)
histogram bmi, norm name(p2)
graph combine p1 p2

*Fordelingen er ve. skæv ved bmi og opfylder derfor ikke normalfordeling. Vi laver derfor en log-transformation - for at tjekke om bmi i så fald vil være normalfordelt. 

generate logbmi=log(bmi) 
hist logbmi, norm

*Ved log-transformation acceptere vi bmi som normal fordelt. Jeg ved ikke om vi behøver, at lave en logscala af muac, men jeg gør det da jeg tænker de er nemmere at sammenligne. 

generate logmuac=log(muac_cm)
hist logmuac, norm


. pwcorr logmuac logbmi

             |  logmuac   logbmi
-------------+------------------
     logmuac |   1.0000 
      logbmi |   0.8701   1.0000 

	  
*Person correlation effekt på 0.8701 
*stærk correlation mellem muac og bmi. 

drop if age>18
drop if age<5

 pwcorr logmuac logbmi

             |  logmuac   logbmi
-------------+------------------
     logmuac |   1.0000 
      logbmi |   0.8703   1.0000 

	  
*For aldersgruppen 6-18 år. 


*__________

*Tabel Cecilie gerne vil se. 

oneway muac age if sex==1, tab
oneway muac age if sex==2, tab

*_______________

. pwcorr muac weight

             |  muac_cm weight~g
-------------+------------------
     muac_cm |   1.0000 
   weight_kg |   0.9037   1.0000 

. pwcorr muac waist

             |  muac_cm waist_cm
-------------+------------------
     muac_cm |   1.0000 
    waist_cm |   0.8329   1.0000 
	
	. pwcorr bmi waist

             |      bmi waist_cm
-------------+------------------
         bmi |   1.0000 
    waist_cm |   0.8230   1.0000 

. pwcorr bmi weight

             |      bmi weight~g
-------------+------------------
         bmi |   1.0000 
   weight_kg |   0.8425   1.0000 


. 
*________________
*ex. of muac percentiles calculation. 
centile muac if sex==1 & age==6, centile(0.2 2.3 16 50 84 97.7 99.8)


. forvalues i=5/19 {
  2. centile muac if sex==1 & age==`i', centile(0.2 2.3 16 50 84 97.7 99.8)
  3. }

  . forvalues i=5/19 {
  2. centile bmi if sex==1 & age==`i', centile(0.2 2.3 16 50 84 97.7 99.8)
  3. }

*__________
*sample size calculation cluster: 

kapssi .9, diff(.1) p1(.10) p2(.10) round


*_______________________

*BMI and prevalence study

*Generel:

drop if missing(age)
*6 obs deleted, total = 11,992

drop if missing(sex)
*9 obs deleted, total = 11,983

*age groups
drop if age>18
*107 obs deleted 

drop if age<6
*77 obs deleted

*outliers
drop if muac>31 & bmi<25
*2 obs deleted

drop if muac<24 & bmi>32